続・Project Maestro(Beta)で奈良県の統計データを前処理してみた(Join編) #tableau #Maestro

続・Project Maestro(Beta)で奈良県の統計データを前処理してみた(Join編) #tableau #Maestro

Clock Icon2018.04.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

ごきげんよう。大阪オフィス唯一のDI部メンバー、tamaです。

前回のエントリにて、Project Maestroのベータ版を使用して、奈良県の公開統計データを、TableauのViz作成が行いやすいように前処理しました。予めデータを整えておくことで、非常にスムーズに奈良県の市区町村の面積の可視化を行うことができました。

前回のエントリの最後でもチラっと触れていますが、作成した市区町村別面積のVizに対して、別のデータもプロットしてみたい!と考えたとき、当然ですが、そのデータを結合する必要があります。

今回は、既存のVizに「世帯数」のデータもプロットしたいと思います。そのために、前回前処理を行ったデータに対して、別途前処理した世帯数データを結合したいと思います。

準備

ゴール

  • 奈良県の市区町村の世帯数データを、前回前処理した面積データと同じ形式に前処理する
  • 世帯数データと面積データを結合し、1つのデータソースとして出力し直す

作業環境

  • MacOS High Sierra 10.13.3
  • Project Maestro Beta 0.4
  • (Tableau Desktop 10.5)

使用データ

※前回と同じExcelデータを使用します。

実践

前回作成した前処理フローを開く

Maestroは、作成したフローを「.tfl」というファイル形式で保存しています。今回は、前回のフローに処理を付け加える形になるので、前回作成したフローを開きます。

デフォルトの保存場所は、Macの場合は「書類」→「(beta) My Maestro Repository」→「Flow」ディレクトリの中でした。

世帯数データを追加する

今回は、前回と同じExcelデータの「1-3.市町村別世帯数」シートを使用します。なので、そのシートを選択して、フローの中にドラッグします。

データ形式の確認〜前処理

前回と同じく、まずはどんなデータか見てみましょう。

どうやら、前回の面積データと形式が同じようです(値が面積か世帯数か違う程度)。ということで、まずは前回と同じ前処理(スペース除去等の処理→ピボット処理→最終調整)を、この世帯数データに対しても行いましょう。

※前回のエントリはこちら

JOIN(結合)

前回と同じ前処理を一通り作成したところ、下記のようなフローになりました。

面積データと世帯数データの形式を同じようにできたところで、いよいよこの2つのデータをMaestroで結合します。

まず、結合するデータ(のフローの最後)の片方を、もう片方のデータ(のフローの最後)にドラッグします。

画像ではちょっと分かりづらいかもしれませんが、ドラッグすると「New Union」「New Join」というアイコンが自動的に表示されます。今回は結合したいので、「New Join」の部分でドロップすると、結合の設定画面に移行します。

この画面で結合の条件を設定していきます。今回は年次と市区町村名のセットでユニークになっているデータなので、自動的に設定されている市区町村名に加えて、年次でも結合するように設定します。また、結合方式は内部結合で問題ないので、そのままにしておきます。

ここらへんは、微妙なUIの違いはあれど、基本的にTableauでの結合設定とほとんど同じ感覚で行うことができます。

設定を編集すると、結合後のデータの状態をプレビューしてくれます。

ピッタリ2653件が一致しているので、結合は問題なさそうですね。結合した際にデータのズレが生じた場合は、ここにズレた分が何件なのかが表示され、さらにそのデータがどのデータなのかも見ることができます。それらの情報を参考にしながら結合設定を変えたり、場合によっては、結合より前の処理を見直したりしていくことになります。

後は、不要なカラムの削除等の最終調整を行えば完璧です。

出力

全ての処理設定が完了したら、前回と同じく「Add Output」からファイルを出力します。(今回もHyper形式で出力しました)

TableauでViz作成

データ接続

接続してみました。問題なさそうですね。

Viz作成

前回のツリーマップに、世帯数データを付け加える形にしてみました。枠の大きさ→面積の大きさ、色→世帯数(赤いほど世帯数が多い、青色ほど世帯数が少ない)を表現しています。

奈良県内では、町の規模としては圧倒的に奈良市が大きいですね。また、世帯数の少ない村はとても多く、一部世帯数が他より多めな町(橿原市や生駒市など)が存在するものの、これらはどれも面積の小さい町です。面積の小さい自治体に世帯が集中していることがわかります。(面積が大きい村は、そのほとんどが山林地帯でそもそも住めるところではない…ということもよくあります。)

おわりに

今回も実際のデータでMaestroを使ってみました。今回のように、Vizを作成している中で後からデータを追加したいと思うことは比較的あると思います。そんな場合のちょっとしたデータ加工にMaestroはお役立ちな存在になると思いました。

奈良からは以上です。

参考

  • https://onlinehelp.tableau.com/v0.0/maestro/en-us/help.html
    • Maestroのヘルプです。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.